智能论文笔记

SFF-DA: Sptialtemporal Feature Fusion for Detecting Anxiety Nonintrusively

Haimiao Mo , Yuchen Li , Shanlin Yang , Wei Zhang , Shuai Ding

分类：计算机视觉

2022-08-12

早期发现焦虑症对于减少精神障碍患者的苦难并改善治疗结果至关重要。基于MHealth平台的焦虑筛查在提高筛选效率和降低筛查成本方面具有特殊实用价值。实际上，受试者的身体和心理评估中移动设备的差异以及数据质量不均匀的问题和现实世界中数据的少量数据量使现有方法无效。因此，我们提出了一个基于时空特征融合的框架，用于非触发焦虑。为了降低数据质量不平衡的影响，我们构建了一个基于“ 3DCNN+LSTM”的特征提取网络，并融合了面部行为和非接触式生理学的时空特征。此外，我们设计了一种相似性评估策略，以解决较小的数据样本量导致模型准确性下降的问题。我们的框架已通过现实世界中的机组数据集进行了验证，并且两个公共数据集UBFC-Phys和Swell-KW。实验结果表明，我们框架的总体性能要比最新的比较方法更好。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

GIMO: Gaze-Informed Human Motion Prediction in Context

Yang Zheng , Yanchao Yang , Kaichun Mo , Jiaman Li , Tao Yu , Yebin Liu , C. Karen Liu , Leonidas J. Guibas

分类：计算机视觉

2022-04-20

预测人类运动对于辅助机器人和AR/VR应用至关重要，在这种机器人和AR/VR应用中，与人类的互动需要安全舒适。同时，准确的预测取决于理解场景上下文和人类意图。尽管许多作品研究场景 - 意识到人类的运动预测，但由于缺乏以自我为中心的观点，这些观点揭示了人类意图以及运动和场景的多样性有限，因此后者在很大程度上并没有得到充实的影响。为了减少差距，我们提出了一个大规模的人类运动数据集，该数据集可提供高质量的身体姿势序列，场景扫描以及以自我为中心的视图，目光注视，这是推断人类意图的代孕。通过使用惯性传感器进行运动捕获，我们的数据收集与特定场景无关，这进一步增强了从主题中观察到的运动动力学。我们对利用眼睛目光进行以自我为中心的人类运动预测的优势进行了广泛的研究，并进行了各种最新的架构。此外，为了实现目光的全部潜力，我们提出了一种新型的网络体系结构，该架构可以在目光和运动分支之间进行双向交流。我们的网络在拟议的数据集上实现了人类运动预测的最高性能，这要归功于眼睛凝视的意图信息以及动作调制的DeNocied Ceaze特征。代码和数据可以在https://github.com/y-zheng18/gimo上找到。

translated by 谷歌翻译

PALI-NLP at SemEval-2022 Task 4: Discriminative Fine-tuning of Transformers for Patronizing and Condescending Language Detection

Dou Hu , Mengyuan Zhou , Xiyang Du , Mengfei Yuan , Meizhi Jin , Lianxin Jiang , Yang Mo , Xiaofeng Shi

分类：自然语言处理 | 人工智能

2022-03-09

对人类法官和现有的NLP系统，受人尊敬和屈尊的语言（PCL）具有巨大的有害影响，很难检测到。在Semeval-2022任务4中，我们提出了一个基于变压器的新型模型及其合奏，以准确了解PCL检测的这种语言上下文。为了促进对PCL的微妙和主观性质的理解，采用两种微调策略来捕获不同语言行为和分类分布的歧视性特征。该系统在官方排名中取得了显着的结果，包括子任务中的1和第5位。

translated by 谷歌翻译

Object Pursuit: Building a Space of Objects via Discriminative Weight Generation

Chuanyu Pan , Yanchao Yang , Kaichun Mo , Yueqi Duan , Leonidas Guibas

分类：计算机视觉

2021-12-15

我们提出了一个框架，以便不断学习以对客观的视觉学习和理解为中心的表示。现有的对象形式依赖于个性化场景中的对象的监督，或者执行无监督的解剖学，这几乎无法处理现实世界中的复杂场景。为了减轻注释负担并放宽对数据统计复杂性的限制，我们的方法利用相互作用，从而有效地在学习以特征对象的表示的同时有效地采样对象和相应的训练信号的不同变化。在整个学习过程中，对象以随机顺序逐一流动，具有未知的身份，并且与可以通过卷积高度合成每个对象的潜在权重的潜在代码相关联。此外，采用了学习对象的重新识别和遗忘预防，以使学习过程有效且坚固。我们对拟议框架的关键特征进行了广泛的研究，并分析了学习的表示的特征。此外，我们展示了所提出的框架在学习表示中可以提高下游任务中的标签效率的能力。我们的代码和培训的型号将公开可用。

translated by 谷歌翻译

IFR-Explore: Learning Inter-object Functional Relationships in 3D Indoor Scenes

Qi Li , Kaichun Mo , Yanchao Yang , Hang Zhao , Leonidas Guibas

分类：计算机视觉 | 人工智能 | 机器人

2021-12-10

建立可以与3D室内环境进行交互的体现智能代理，近年来已收到了越来越多的研究关注。虽然大多数作品专注于单一对象或代理 - 对象视觉功能和可供性，但我们的工作建议研究一种新的视觉关系，对感知和模型 - 对象间功能关系也很重要（例如，开关墙壁打开或关闭光线，遥控器操作电视）。人类常常花费很少或不努力推断这些关系，即使在进入新房时，即使在进入新房时，通过使用我们的强大的先验知识（例如，我们知道该按钮控制电气设备），或者在不确定性的情况下仅使用一些探索性相互作用（例如，多个开关和相同房间的灯）。在本文中，我们在3D室内环境中建立了AI系统学习对象间功能关系的第一步，通过培训大规模场景和设计互动政策，以有效地探索培训场景和快速设计互动政策，以便进行建模的主要技术贡献适应新颖的测试场景。我们根据AI2thor和Portnet数据集创建一个新的基准，并进行广泛的实验，证明了我们提出的方法的有效性。结果表明，我们的模型成功地了解了在复杂3D场景中探索对象内功能关系的前沿和快速交互式的策略。几项消融研究进一步验证了每个提出的模块的有用性。

translated by 谷歌翻译

A Hierarchical Control Framework for Drift Maneuvering of Autonomous Vehicles

Bo Yang , Yiwen Lu , Xu Yang , Yilin Mo

分类：机器人

2021-09-14

当由于雨或雪等外部条件而突然牵引时，漂移控制对于自主车辆的安全性是显着的。由于存在显着的侧滑和轮胎几乎完整的饱和度，这是一个具有挑战性的控制问题。在本文中，我们专注于在固定或移动中心的圆形路径之后控制漂移行动，可能会导致轮胎地面互动的变化，这是漂移爱好者的常见培训任务，因此可以用作性能的基准漂移控制。为了实现上述任务，我们提出了一种新颖的等级控制架构，其解耦了轨迹的曲率和中心控制。特别地，外环通过调谐目标曲率来稳定中心，并且内环使用由$ \ mathcal {l} _1 $自适应组件增强的前馈/反馈控制器跟踪曲率。分层体系结构是灵活的，因为内部环路是任务 - 不可行的和适应轮胎道路交互的变化，这允许外部环路独立于低电平动态设计，打开结合复杂的规划算法的可能性。我们在仿真平台以及1/10级无线电控制〜（RC）汽车上实施我们的控制策略，仿真和实验结果都说明了我们在实现上述漂移机动任务方案集中的策略的有效性。

translated by 谷歌翻译

Collaborative Three-Tier Architecture Non-contact Respiratory Rate Monitoring using Target Tracking and False Peaks Eliminating Algorithms

Haimiao Mo , Shuai Ding , Shanlin Yang , Athanasios V. Vasilakos , Xi Zheng

分类：机器人 | 机器学习

2020-11-17

监测呼吸率对于帮助我们识别呼吸系统疾病至关重要。常规呼吸监测的设备不方便且几乎无法使用。最近的研究表明，非接触式技术（例如光摄影学和红外热成像）从面部收集呼吸信号并监测呼吸的能力。但是，当前的非接触式呼吸监测技术的精度较差，因为它们对照明和运动伪影等环境影响很敏感。此外，在现实世界中医疗应用程序设置中，用户与云之间的频繁联系可能会导致服务请求延迟，并可能导致个人数据的丢失。我们提出了一种具有合作三层设计的非接触式呼吸速率监测系统，以提高呼吸监测的精度并减少数据传输延迟。为了减少数据传输和网络延迟，我们的三层体系结构逐层分解了呼吸监视的计算任务。此外，我们通过设计目标跟踪算法和消除假峰以提取高质量呼吸信号的算法来提高呼吸监测的准确性。通过收集数据并在面部选择几个感兴趣的区域，我们能够提取呼吸信号并研究不同区域如何影响呼吸监测。实验的结果表明，当使用鼻部区域提取呼吸信号时，它在实验上表现最好。我们的方法的表现比竞争对手的方法更好，同时传输较少的数据。

translated by 谷歌翻译

Unpaired Overwater Image Defogging Using Prior Map Guided CycleGAN

Yaozong Mo , Chaofeng Li , Wenqi Ren , Shaopeng Shang , Wenwu Wang , Xiao-jun Wu

分类：计算机视觉 | 人工智能

2022-12-23

Deep learning-based methods have achieved significant performance for image defogging. However, existing methods are mainly developed for land scenes and perform poorly when dealing with overwater foggy images, since overwater scenes typically contain large expanses of sky and water. In this work, we propose a Prior map Guided CycleGAN (PG-CycleGAN) for defogging of images with overwater scenes. To promote the recovery of the objects on water in the image, two loss functions are exploited for the network where a prior map is designed to invert the dark channel and the min-max normalization is used to suppress the sky and emphasize objects. However, due to the unpaired training set, the network may learn an under-constrained domain mapping from foggy to fog-free image, leading to artifacts and loss of details. Thus, we propose an intuitive Upscaling Inception Module (UIM) and a Long-range Residual Coarse-to-fine framework (LRC) to mitigate this issue. Extensive experiments on qualitative and quantitative comparisons demonstrate that the proposed method outperforms the state-of-the-art supervised, semi-supervised, and unsupervised defogging approaches.

translated by 谷歌翻译

A Neural Network Warm-Start Approach for the Inverse Acoustic Obstacle Scattering Problem

Mo Zhou , Jiequn Han , Manas Rachh , Carlos Borges

分类：机器学习

2022-12-16

We consider the inverse acoustic obstacle problem for sound-soft star-shaped obstacles in two dimensions wherein the boundary of the obstacle is determined from measurements of the scattered field at a collection of receivers outside the object. One of the standard approaches for solving this problem is to reformulate it as an optimization problem: finding the boundary of the domain that minimizes the $L^2$ distance between computed values of the scattered field and the given measurement data. The optimization problem is computationally challenging since the local set of convexity shrinks with increasing frequency and results in an increasing number of local minima in the vicinity of the true solution. In many practical experimental settings, low frequency measurements are unavailable due to limitations of the experimental setup or the sensors used for measurement. Thus, obtaining a good initial guess for the optimization problem plays a vital role in this environment. We present a neural network warm-start approach for solving the inverse scattering problem, where an initial guess for the optimization problem is obtained using a trained neural network. We demonstrate the effectiveness of our method with several numerical examples. For high frequency problems, this approach outperforms traditional iterative methods such as Gauss-Newton initialized without any prior (i.e., initialized using a unit circle), or initialized using the solution of a direct method such as the linear sampling method. The algorithm remains robust to noise in the scattered field measurements and also converges to the true solution for limited aperture data. However, the number of training samples required to train the neural network scales exponentially in frequency and the complexity of the obstacles considered. We conclude with a discussion of this phenomenon and potential directions for future research.

translated by 谷歌翻译